当前位置: 开发笔记 > 编程语言 > 正文

升序|都会_Hive与优化方法

作者：manassatromble | 来源：互联网 | 2023-10-12 19:22

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Hive与优化方法相关的知识，希望对你有一定的参考价值。Hive与优化方法

篇首语：本文由编程笔记#小编为大家整理，主要介绍了Hive与优化方法相关的知识，希望对你有一定的参考价值。

Hive与优化方法

文章目录

Hive与优化方法
一、Hive概念
二、Hive架构
三、Hive与数据库的比较
四、Hive中一些重要的概念
- 4.1 内部表和外部表
- 4.2 分区表
- 4.3 Hive排序关键字
- 4.4 Hive分桶
- 4.5 三种排序窗函数的区别
- 4.6 Hive解析MR的Reduce数量的确定
- 4.7 Hive的存储格式
五、Hive调优
- 5.1 部分场景下尽可能避免启用MR
- 5.2 表的优化
- 5.3 数据倾斜优化
- 5.3 其他优化

Java、大数据开发学习要点&＃xff08;持续更新中…&＃xff09;

一、Hive概念

Hive是基于Hadoop的一个数据仓库工具&＃xff0c;可以将结构化的数据文件映射为一张表&＃xff0c;并提供类SQL查询功能。其本质是&＃xff0c;将HQL转化成MapReduce程序。底层数据存储在HDFS上&＃xff0c;由于延迟较大所以一般适用于离线大批量的数据计算和分析。

二、Hive架构

用户接口Client&＃xff1a;
CLI&＃xff08;hive shell&＃xff09;、JDBC/ODBC(java访问hive)、WEBUI&＃xff08;浏览器访问hive&＃xff09;
元数据Metastore&＃xff1a;
元数据包括&＃xff1a;表名、表所属的数据库&＃xff08;默认是default&＃xff09;、表的拥有者、列/分区字段、表的类型&＃xff08;是否是外部表&＃xff09;、表的数据所在目录等&＃xff1b;默认存储在自带的derby数据库中&＃xff0c;推荐使用MySQL存储Metastore。
Hadoop&＃xff1a;
使用HDFS进行存储&＃xff0c;使用MapReduce进行计算。
驱动器Driver(Hive执行过程)&＃xff1a;
- 解析器&＃xff08;SQL Parser&＃xff09;&＃xff1a;将SQL字符串(shell命令行、JDBC、Web)转换成抽象语法树AST&＃xff0c;这一步一般都用第三方工具库完成&＃xff0c;比如antlr&＃xff1b;对AST进行语法分析&＃xff0c;根据MetaStore中的元数据信息判断SQL语句的合法性&＃xff0c;比如表是否存在、字段是否存在、SQL语义是否有误。
- 编译器&＃xff08;Physical Plan&＃xff09;&＃xff1a;将抽象语法树编译生成逻辑执行计划。
- 优化器&＃xff08;Query Optimizer&＃xff09;&＃xff1a;对逻辑执行计划进行优化。
- 执行器&＃xff08;Execution&＃xff09;&＃xff1a;把逻辑执行计划转换成可以运行的物理计划存储在HDFS上由计算引擎进行调用。对于Hive来说&＃xff0c;就是MR/Spark任务。

三、Hive与数据库的比较

Hive 和数据库除了拥有类似的查询语言&＃xff0c;再无类似之处。其实记住Hive是数仓工具就可以将其与数据库区别开来。

Hive与传统数据库的区别&＃xff1a;

数据更新&＃xff1a;由于Hive是针对数据仓库应用设计的&＃xff0c;而数据仓库的内容是读多写少的。因此&＃xff0c;Hive中不建议对数据的改写&＃xff0c;所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行更新。
数据查询&＃xff1a;传统数据库数据由于索引的存在&＃xff0c;在数据量较小的情况下查询较快&＃xff0c;并且自己提供执行引擎。而Hive数据查询是整表或者分区表的扫描&＃xff0c;只有在大数据情况下分布式运算才有优势&＃xff0c;依靠MR或Spark来执行。
数据存储&＃xff1a;Hive数据存储没有固定的格式&＃xff0c;用户可以自己指定存储的格式(Parquet、SequenceFile等)&＃xff0c;并自己指定压缩格式(Snappy、ORC)。数据库的存储引擎定义了自己的存储格式。

Hive与HBase的区别&＃xff1a;
其实没有什么可以比较的。HBase是一个分布式列簇式存储KV数据库&＃xff0c;Hive是一个数仓工具。Hive擅长于大数据离线计算和分析&＃xff0c;而HBase则是提供快速数据写入和查询的数据库应用在实时查询的场景。

四、Hive中一些重要的概念

4.1 内部表和外部表

内部表生命周期是受Hive控制的&＃xff0c;删除内部表则数据和元数据都会被删除&＃xff1b;将数据导入外部表&＃xff0c;数据并不会移动&＃xff0c;即使删除外部表&＃xff0c;只是删除外部表元数据&＃xff0c;而原来的数据还是会存在。

使用的例子&＃xff0c;HDFS定期收到用户行为日志文件&＃xff0c;在日志文件上建立外部表&＃xff0c;中间表和结果表则以内部表的形式存储。

4.2 分区表

分区表实际上就是对应一个HDFS文件系统上的独立的文件夹&＃xff0c;该文件夹下是该分区所有的数据文件。Hive根据某列或者某些列的值(这些列在表中并不真实存在)将数据分区&＃xff0c;放在表文件夹下不同子文件夹中存储。Hive中的分区就是分目录&＃xff0c;把一个大的数据集根据业务需要分割成小的数据集。

静态分区和动态分区&＃xff1a;

静态分区&＃xff1a;在建表中指定分区条件&＃xff0c;数据导入或者插入时需要指定分区。
动态分区&＃xff1a;按照某个或某些字段的值不同自动地进行分区&＃xff0c;底层实际是利用MapReduce的mutipleOutputs(根据条件判断&＃xff0c;将结果写入不同目录不同文件&＃xff09;。
静态分区必须在动态分区前。

分区的注意事项&＃xff1a;
Hive分区过多&＃xff0c;导致每个分区的文件小&＃xff0c;会导致HDFS小文件过多的问题。
&＃xff08;1&＃xff09;小文件数量过多造成NameNode负担过大。
&＃xff08;2&＃xff09;Hive运行Mapreduce时&＃xff0c;每个block对应一个切片&＃xff0c;而小文件则会直接对应一个map任务&＃xff0c;使得map任务过多使得运行效率低下(Yarn频繁申请销毁容器)。

4.3 Hive排序关键字

ORDER BY&＃xff1a;全局排序&＃xff0c;强制只有一个Reducer&＃xff0c;但是当数据规模较大时&＃xff0c;会导致消耗较长的计算时间。
SORT BY&＃xff1a;局部排序&＃xff0c;每个task内部排序&＃xff0c;使得reduce结果都是局部有序的。
DISTRIBUTE BY&＃xff1a;类似MR中的Partition分区器&＃xff0c;根据某一列进行分区。使用DISTRIBUTE BY&＃43;SORT BY来实现分桶排序查询&＃xff0c;如&＃xff1a;

hive (default)> set mapreduce.job.reduces&＃61;3; --根据col1进行分区&＃xff0c;再根据col2进行分区内的降序排序 hive (default)> select col1,col2 from emp distribute by col1 sort by col2 desc;
CLUSTER BY&＃xff1a;当DISTRIBUTE BY和SORT BY字段相同时&＃xff0c;可以使用CLUSTER BY代替&＃xff0c;但只能升序排列。

4.4 Hive分桶

对Hive表分桶可以将表中数据按分桶键的哈希值散列到多个文件中&＃xff0c;这些小文件称为桶。

表分区是用不同的子文件夹管理不同的数据&＃xff1b;而表分桶用不同的文件管理不同的数据。

分桶的好处&＃xff1a;

join两个相同分桶划分的表时可以使用map-side join&＃xff0c;优化join查询。
根据某些列进行分桶可以使Hive查询时利用分桶的结构加快查询效率。
对于非常大的数据集&＃xff0c;有时用户需要使用的是一个具有代表性的查询结果而不是全部结果。Hive可以通过对表进行抽样来满足这个需求。而分桶的结构恰好满足抽样所需的数据结构&＃xff0c;使得抽样更加高效。

4.5 三种排序窗函数的区别

RANK() n个排序相同时排名会重复&＃xff0c;但下一个排名会跳跃至n个名次开始。(跳跃)
DENSE_RANK() n个排序相同时排名会重复&＃xff0c;但下一个排名继续上一个排名加1开始。(连续)
ROW_NUMBER() 会根据顺序依次编号。

4.6 Hive解析MR的Reduce数量的确定

hive有两个参数设定&＃xff1a;hive.exec.reducers.bytes.per.reducer(下称参数1)和hive.exec.reducers.max(下称参数2)

hive解析成MR后的Reduce数量则是N &＃61; min(参数2,任务总数据量/参数1)&＃xff0c;默认参数1是1G。

4.7 Hive的存储格式

text&＃xff1a;默认存储格式&＃xff0c;普通的文本文件&＃xff0c;数据不压缩&＃xff0c;磁盘的开销比较大&＃xff0c;分析开销大。
Parquet&＃xff1a;一种行式存储格式&＃xff0c;具有很好的压缩性能&＃xff1b;同时可以减少大量的表扫描和反序列化的时间。
ORC&＃xff1a;Hive/Spark都支持这种存储格式&＃xff0c;它存储的方式是数据按行分块&＃xff0c;每个块按列存储&＃xff0c;其中每个块都存储有一个索引。特点是数据压缩率非常高。

五、Hive调优

5.1 部分场景下尽可能避免启用MR

由于MapReduce的启动任务调度通常在数据集小的情况下耗时比job本身时间要长。所以Hive在有些场景下可以尽量避免启动MR来执行任务。比如数据抓取(Fetch)在全表数据获取、字段查找、limit查找的情况下可以不走MapReduce&＃xff1b;再比如数据集较小的情况下&＃xff0c;开启本地模式单机处理所有任务也能比走集群计算得到更好的时间效率。

5.2 表的优化

小表JOIN大表&＃xff1a;

JOIN有个特点是其中一个表需要作为全量读取的表先加载至内存&＃xff0c;所以小表写在JOIN左边(当然这点Hive的开发者已经对此进行了优化)。
小表JOIN大表的情况下&＃xff0c;尽量使用map-side join&＃xff0c;将小表广播到大表所在的map任务中&＃xff0c;以减少小表shuffler所带来的IO开销。

大表JOIN大表&＃xff1a;

要注意的是大表的数据量基本都比较大&＃xff0c;JOIN容易出现reducer的OOM&＃xff0c;所以要注意JOIN前数据的过滤与某些空key数据产生的数据倾斜问题(随机赋值)。

替换COUNT DISTINCT去重统计
COUNT DISTINCT通过一个Reducer来完成去重统计&＃xff0c;在数据量巨大的场景下效率低下。将COUNT DISTINCT用两阶段进行替换&＃xff1a;先GROUP BY再开启一个任务进行COUNT。
避免笛卡尔积
表的无条件JOIN(没有指定ON条件&＃xff0c;或条件无效)&＃xff0c;Hive只能用一个Reducer完成&＃xff0c;效率极其低下。
行过滤
在表的JOIN关联中&＃xff0c;将附表的过滤作为子查询写在ON条件之前&＃xff0c;否则会导致先关联再过滤的问题产生。

5.3 数据倾斜优化

map-side join来缓解数据倾斜问题
如果不指定MapJoin或者不符合MapJoin的条件&＃xff0c;那么Hive解析器会将Join操作转换成Common Join&＃xff0c;即&＃xff1a;在Reduce阶段完成join。容易发生数据倾斜。可以用Map-side Join把小表全部加载到内存在Map端进行join&＃xff0c;避免Reducer处理。(参数设置set hive.auto.convert.join &＃61; true;默认是true)
Group by开启Map端预聚合
默认情况下&＃xff0c;Map阶段同一Key数据分发给一个Reducer&＃xff0c;当一个key数据过大时就倾斜了。并不是所有的聚合操作都需要在Reduce端完成&＃xff0c;很多聚合操作都可以先在Map端进行部分聚合&＃xff0c;最后在Reduce端得出最终结果。两个参数hive.map.aggr &＃61; true(默认) 和 hive.groupby.skewindata &＃61; true(非默认)&＃xff0c;分别是开启Map端预聚合和数据倾斜时进行负载均衡。

当选项设定为 true&＃xff0c;生成的查询计划会有两个MR Job。第一个MR Job中&＃xff0c;Map的输出结果会随机分布到Reduce中&＃xff0c;每个Reduce做部分聚合操作&＃xff0c;并输出结果&＃xff0c;这样处理的结果是相同的Group By Key有可能被分发到不同的Reduce中&＃xff0c;从而达到负载均衡的目的&＃xff1b;第二个MR Job再根据预处理的数据结果按照Group By的Key分布到Reducer中&＃xff08;这个过程可以保证相同的Key被分布到同一个Reducer中&＃xff09;&＃xff0c;最后完成最终的聚合操作。
合理设置Map任务数和Reduce任务数

合理的Map任务数&＃xff1a;
1. 每个小文件对应一个Map任务是不明智的&＃xff0c;导致Map任务数过多&＃xff0c;且任务启动调度的时间远大于任务逻辑执行的时间。
2. 每个Map的大小接近128M呢&＃xff1f;则会使得单个Map任务的执行时间过长。
所以&＃xff0c;Map任务需要按照场景进行调整&＃xff0c;小文件多的情况下减少Map任务并设置Hive的InputFormat为CombineHiveInputFormat&＃xff1b;而文件较大的情况下&＃xff0c;增加Map数量来分担单文件大数据量的计算压力。
合理的Reduce任务数&＃xff1a;

与Map任务类似&＃xff0c;Reducer数量也要合理&＃xff0c;太多增大调度资源和小文件的产生&＃xff0c;过少单个Reduce任务执行时间过长。

5.3 其他优化

并行执行&＃xff1a;
Hive会将一个查询转化成一个或者多个阶段。这样的阶段可以是MapReduce阶段、抽样阶段、合并阶段、limit阶段。或者Hive执行过程中可能需要的其他阶段。默认情况下&＃xff0c;Hive一次只会执行一个阶段。不过&＃xff0c;某个特定的job可能包含众多的阶段&＃xff0c;而这些阶段可能并非完全互相依赖的&＃xff0c;也就是说有些阶段是可以并行执行的&＃xff0c;这样可能使得整个job的执行时间缩短。不过&＃xff0c;如果有更多的阶段可以并行执行&＃xff0c;那么job可能就越快完成。
严格模式&＃xff1a;
1. 对于分区表&＃xff0c;除非where语句中含有分区字段过滤条件来限制范围&＃xff0c;否则不允许执行。换句话说&＃xff0c;就是用户不允许扫描所有分区。进行这个限制的原因是&＃xff0c;通常分区表都拥有非常大的数据集&＃xff0c;而且数据增加迅速。没有进行分区限制的查询可能会消耗令人不可接受的巨大资源来处理这个表。
2. 对于使用了order by语句的查询&＃xff0c;要求必须使用limit语句。因为order by为了执行排序过程会将所有的结果数据分发到同一个Reducer中进行处理&＃xff0c;强制要求用户增加这个LIMIT语句可以防止Reducer额外执行很长一段时间。
3. 限制笛卡尔积的查询。对关系型数据库非常了解的用户可能期望在执行JOIN查询的时候不使用ON语句而是使用WHERE语句&＃xff0c;这样关系数据库的执行优化器就可以高效地将WHERE语句转化成那个ON语句。不幸的是&＃xff0c;Hive并不会执行这种优化&＃xff0c;因此&＃xff0c;如果表足够大&＃xff0c;那么这个查询就会出现不可控的情况。
JVM重用&＃xff1a;

JVM重用是Hadoop调优参数的内容&＃xff0c;其对Hive的性能具有非常大的影响&＃xff0c;特别是对于很难避免小文件的场景或task特别多的场景&＃xff0c;这类场景大多数任务执行时间都很短。
合理压缩&＃xff1a;

比如使用Parquet列式存储数据&＃xff0c;这种格式按列存储数据&＃xff0c;没列数据类型相同&＃xff0c;天然对压缩友好&＃xff0c;建议可以使用Parquet(ORC)存储格式&＃43;Snappy压缩格式的组合。

推荐阅读

go
Hadoop入门与核心组件详解

本文详细介绍了Hadoop的基础知识及其核心组件，包括HDFS、MapReduce和YARN。通过本文，读者可以全面了解Hadoop的生态系统及应用场景。 ... [详细]

蜡笔小新 2024-12-26 13:12:48
go
深入解析Hadoop的核心组件与工作原理

本文详细介绍了Hadoop的三大核心组件：分布式文件系统HDFS、资源管理器YARN和分布式计算框架MapReduce。通过分析这些组件的工作机制，帮助读者更好地理解Hadoop的架构及其在大数据处理中的应用。 ... [详细]

蜡笔小新 2024-12-19 17:17:51
go
深入解析Spark核心架构与部署策略

本文详细探讨了Spark的核心架构，包括其运行机制、任务调度和内存管理等方面，以及四种主要的部署模式：Standalone、Apache Mesos、Hadoop YARN和Kubernetes。通过本文，读者可以深入了解Spark的工作原理及其在不同环境下的部署方式。 ... [详细]

蜡笔小新 2024-12-14 20:02:45
buffer
深入浅出：Hadoop架构详解

Hadoop作为大数据处理的核心技术，包含了一系列组件如HDFS（分布式文件系统）、YARN（资源管理框架）和MapReduce（并行计算模型）。本文将通过实例解析Hadoop的工作原理及其优势。 ... [详细]

蜡笔小新 2024-11-26 13:26:40
buffer
构建用户画像环境：Hive与SparkSQL的高效整合

本文介绍如何通过整合SparkSQL与Hive来构建高效的用户画像环境，提高数据处理速度和查询效率。 ... [详细]

蜡笔小新 2024-11-19 09:44:24
go
Hadoop发行版本选择指南：技术解析与应用实践

本文详细介绍了Hadoop的不同发行版本及其特点，帮助读者根据实际需求选择最合适的Hadoop版本。内容涵盖Apache Hadoop、Cloudera CDH等主流版本的特性及应用场景。 ... [详细]

蜡笔小新 2024-12-22 20:38:12
byte
Hive中Map任务数量的确定方法

本文探讨了Hive作业中Map任务数量的确定方式，主要涉及HiveInputFormat和CombineHiveInputFormat两种InputFormat的分片计算逻辑。通过调整相关参数，可以有效控制Map任务的数量，进而优化Hive作业的性能。 ... [详细]

蜡笔小新 2024-12-19 11:36:41
buffer
MapReduce原理是怎么剖析的

这期内容当中小编将会给大家带来有关MapReduce原理是怎么剖析的，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。1 ... [详细]

蜡笔小新 2024-12-16 18:23:06
buffer
全面解析Hive：数据仓库工具概览

本文介绍了Hive作为基于Hadoop的数据仓库工具的核心概念，包括其基本功能、使用理由、特点以及与Hadoop的关系。同时，文章还探讨了Hive相较于传统关系型数据库的不同之处，并展望了Hive的发展前景。 ... [详细]

蜡笔小新 2024-12-05 10:44:18
window
流处理中的计数挑战与解决方案

本文探讨了在流处理中进行计数的各种技术和挑战，并基于作者在2016年圣何塞举行的Hadoop World大会上的演讲进行了深入分析。文章不仅介绍了传统批处理和Lambda架构的局限性，还详细探讨了流处理架构的优势及其在现代大数据应用中的重要作用。 ... [详细]

蜡笔小新 2024-11-20 13:50:01
window
Apache Spark 基础操作指南

本文详细介绍如何使用 Apache Spark 执行基本任务，包括启动 Spark Shell、运行示例程序以及编写简单的 WordCount 程序。同时提供了参数配置的注意事项和优化建议。 ... [详细]

蜡笔小新 2024-12-20 18:01:20
go
Linux 文件权限与用户配置管理

本文详细介绍了 Linux 系统中用户、组和文件权限的设置方法，包括基本权限（读、写、执行）、特殊权限（SUID、SGID、Sticky Bit）以及相关配置文件的使用。 ... [详细]

蜡笔小新 2024-12-20 09:27:23
process
58同城的Elasticsearch应用与平台构建实践

本文由58同城高级架构师于伯伟分享，由陈树昌编辑整理，内容源自DataFunTalk。文章探讨了Elasticsearch作为分布式搜索和分析引擎的应用，特别是在58同城的实施案例，包括集群优化、典型应用实例及自动化平台建设等方面。 ... [详细]

蜡笔小新 2024-12-11 19:31:21
instance
MapReduce 中的输入输出格式控制

本文介绍了如何在 MapReduce 作业中使用 SequenceFileOutputFormat 生成 SequenceFile 文件，并详细解释了 SequenceFile 的结构和用途。 ... [详细]

蜡笔小新 2024-11-17 14:43:42
instance
Hadoop 架构详解：核心组件解析

本文介绍了Hadoop的核心组件，包括高可靠性和高吞吐量的分布式文件系统HDFS、分布式的离线并行计算框架MapReduce、作业调度与集群资源管理框架YARN以及支持其他模块的工具模块Common。 ... [详细]

蜡笔小新 2024-11-16 12:13:59

manassatromble

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章